{
 "metadata": {
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.10-final"
  },
  "orig_nbformat": 2,
  "kernelspec": {
   "name": "python_defaultSpec_1595229413246",
   "display_name": "Python 3.6.10 64-bit ('data': conda)"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2,
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 研究目的"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "个人感觉实习僧数据的数字特征都没有什么价值，比如实习工资、实习时间，实习又不是去挣钱的。不过也有可能分析出想不到的结论\n",
    "\n",
    "重点放在文字特征上，重中之重是详情描述，包含了职位要求和职责\n",
    "\n",
    "研究的最终目的是回答“我该如何找实习”这个问题。为此，一步一步来：\n",
    "1. 我想做的：语音、音乐信号处理, 数据挖掘, 机器学习(也没完全确定要做什么)\n",
    "2. 哪座城市这样的岗位多？\n",
    "3. \n",
    "\n",
    "\n",
    "1. 职位\n",
    "- 都有什么职位？需求程度如何？\n",
    "- 职位和城市的关系(职位分布)\n",
    "2. 行业\n",
    "- 行业和城市\n",
    "- 职位和行业\n",
    " "
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Data details"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "包括15个城市以及一个“全国”。\n",
    "\n",
    "- 公司\n",
    "- 公司标签\n",
    "- 职位\n",
    "- 职位标签\n",
    "- 天/周：要求每周实习的天数\n",
    "- 时长：实习时长要求\n",
    "- 学历\n",
    "- 行业\n",
    "- 最低工资\n",
    "- 最高工资\n",
    "- 链接\n",
    "- 详细描述：包括岗位要求，以及具体职责，还有一些细节要求\n",
    "- 位置"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "import numpy as np \n",
    "import pandas as pd "
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
    "shixi = pd.read_excel('合体.xlsx')"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": "<class 'pandas.core.frame.DataFrame'>\nRangeIndex: 27442 entries, 0 to 27441\nData columns (total 13 columns):\n #   Column  Non-Null Count  Dtype \n---  ------  --------------  ----- \n 0   公司      27442 non-null  object\n 1   公司标签    27442 non-null  object\n 2   职位      27442 non-null  object\n 3   职位标签    27442 non-null  object\n 4   天/周     27442 non-null  int64 \n 5   时长      27442 non-null  int64 \n 6   学历      27442 non-null  object\n 7   行业      27442 non-null  object\n 8   最低工资    27442 non-null  int64 \n 9   最高工资    27442 non-null  int64 \n 10  链接      27442 non-null  object\n 11  详细描述    27440 non-null  object\n 12  位置      27442 non-null  object\ndtypes: int64(4), object(9)\nmemory usage: 2.7+ MB\n"
    }
   ],
   "source": [
    "shixi.info()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "明显不对，缺失没有这么少，可能是由于保存的时候空值保存了空格\n",
    "\n",
    "不该保存空格的 应该保存None"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "shixi.loc[shixi['公司标签'] == ' ', '公司标签'] = None\n",
    "shixi.loc[shixi['职位标签'] == ' ', '职位标签'] = None\n",
    "shixi.loc[shixi['详细描述'] == ' ', '详细描述'] = None\n",
    "shixi.loc[shixi['位置'] == ' ', '位置'] = None\n",
    "shixi.loc[shixi['学历'] == ' ', '学历'] = None"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {
    "tags": []
   },
   "outputs": [
    {
     "output_type": "stream",
     "name": "stdout",
     "text": "<class 'pandas.core.frame.DataFrame'>\nRangeIndex: 27442 entries, 0 to 27441\nData columns (total 13 columns):\n #   Column  Non-Null Count  Dtype \n---  ------  --------------  ----- \n 0   公司      27442 non-null  object\n 1   公司标签    22852 non-null  object\n 2   职位      27442 non-null  object\n 3   职位标签    26698 non-null  object\n 4   天/周     27442 non-null  int64 \n 5   时长      27442 non-null  int64 \n 6   学历      27442 non-null  object\n 7   行业      27442 non-null  object\n 8   最低工资    27442 non-null  int64 \n 9   最高工资    27442 non-null  int64 \n 10  链接      27442 non-null  object\n 11  详细描述    27433 non-null  object\n 12  位置      27442 non-null  object\ndtypes: int64(4), object(9)\nmemory usage: 2.7+ MB\n"
    }
   ],
   "source": [
    "shixi.info()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "这样才对\n",
    "\n",
    "可以看出公司标签缺了4000多个，职位标签缺了1000个左右不算多\n",
    "\n",
    "详情缺了9个，问题不大"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": "                天/周            时长          最低工资          最高工资\ncount  27442.000000  27442.000000  27442.000000  27442.000000\nmean       4.613658      5.296407    128.708330    190.335107\nstd        0.994940      7.991776     72.668029    114.128139\nmin        1.000000      0.000000      0.000000      0.000000\n25%        4.000000      3.000000    100.000000    150.000000\n50%        5.000000      4.000000    100.000000    150.000000\n75%        5.000000      6.000000    150.000000    200.000000\nmax        7.000000    592.000000   3000.000000   5000.000000",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>天/周</th>\n      <th>时长</th>\n      <th>最低工资</th>\n      <th>最高工资</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>count</th>\n      <td>27442.000000</td>\n      <td>27442.000000</td>\n      <td>27442.000000</td>\n      <td>27442.000000</td>\n    </tr>\n    <tr>\n      <th>mean</th>\n      <td>4.613658</td>\n      <td>5.296407</td>\n      <td>128.708330</td>\n      <td>190.335107</td>\n    </tr>\n    <tr>\n      <th>std</th>\n      <td>0.994940</td>\n      <td>7.991776</td>\n      <td>72.668029</td>\n      <td>114.128139</td>\n    </tr>\n    <tr>\n      <th>min</th>\n      <td>1.000000</td>\n      <td>0.000000</td>\n      <td>0.000000</td>\n      <td>0.000000</td>\n    </tr>\n    <tr>\n      <th>25%</th>\n      <td>4.000000</td>\n      <td>3.000000</td>\n      <td>100.000000</td>\n      <td>150.000000</td>\n    </tr>\n    <tr>\n      <th>50%</th>\n      <td>5.000000</td>\n      <td>4.000000</td>\n      <td>100.000000</td>\n      <td>150.000000</td>\n    </tr>\n    <tr>\n      <th>75%</th>\n      <td>5.000000</td>\n      <td>6.000000</td>\n      <td>150.000000</td>\n      <td>200.000000</td>\n    </tr>\n    <tr>\n      <th>max</th>\n      <td>7.000000</td>\n      <td>592.000000</td>\n      <td>3000.000000</td>\n      <td>5000.000000</td>\n    </tr>\n  </tbody>\n</table>\n</div>"
     },
     "metadata": {},
     "execution_count": 25
    }
   ],
   "source": [
    "shixi.describe()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "天/周还算正常(废话)\n",
    "\n",
    "时长、最低工资、最高工资在max时都出现了奇怪的东西，75%的时候挺正常，需要drop掉一些奇异值"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [
    {
     "output_type": "execute_result",
     "data": {
      "text/plain": "              公司                                     公司标签             职位  \\\n0      鋆爵宠品设计工作室                    快乐实习,不撕逼的团队,猫奴狗奴,带宠上班        平面设计实习生   \n1           高顿教育  位置好,社保缴纳,活跃的工作环境,学到东西多,轻松和谐,学习成长空间,美女如云        学员服务实习生   \n2             汉高                       行业领导者,咖啡茶水自助,实践机会多  【施华蔻市场部招聘实习生】   \n3            科创彩        累积专业经验,员工活动丰富,奋斗沃土,热情,成长空间好,发展前景优        内容运营实习生   \n4            科创彩        累积专业经验,员工活动丰富,奋斗沃土,热情,成长空间好,发展前景优        运营策划实习生   \n5           中海地产                         行业大佬,黄埔军校,办公环境舒适        工程助理实习生   \n6           中海地产                         行业大佬,黄埔军校,办公环境舒适  人力资源营销HRBP实习生   \n7           中海地产                         行业大佬,黄埔军校,办公环境舒适         渠道公关专员   \n8   We Education     视野宽广,地铁旁,免费零食茶饮,年度体检,节日津贴,发展空间大,出国机会       业务部出单实习生   \n9  SuperFoot定制鞋垫                                     None           销售经理   \n\n                            职位标签  天/周  时长  学历           行业  最低工资  最高工资  \\\n0                           None    5   4  不限   服装服饰/纺织/皮革   150   200   \n1  免费住宿,可转正,13薪,能力培养,进修机会,各种激励奖金    5  11  本科         教育培训   150   200   \n2                           实习证明    4   6  本科  快消/百货/批发/零售   120   150   \n3          可转正实习,暑期实习,生日福利,留学生实习    4   2  本科    互联网/游戏/软件   100   150   \n4  暑期实习,留学生实习,实习津贴,餐补,绩效奖金,可转正实习    4   2  本科    互联网/游戏/软件   100   150   \n5                 免费三餐,实习证明,提供住宿    5   6  本科  房产/家居/物业/建筑   120   120   \n6          实习津贴,定期团建,生日会,央企,提供住宿    5   3  本科  房产/家居/物业/建筑   120   120   \n7             年轻化,开发商,央企,学得多,年轻态    3   3  本科  房产/家居/物业/建筑   120   150   \n8                     暑期实习,留学生实习    5   2  本科        教育/培训   120   120   \n9   弹性工作,可转正实习,可转正,朝九晚五,绩效奖金,高提成    5   3  大专  快消/百货/批发/零售   250   300   \n\n                                                  链接  \\\n0  https://www.shixiseng.com/intern/inn_oyxskkkkl...   \n1  https://www.shixiseng.com/intern/inn_olw7fgqqy...   \n2  https://www.shixiseng.com/intern/inn_ogguqshke...   \n3  https://www.shixiseng.com/intern/inn_4cruuuriv...   \n4  https://www.shixiseng.com/intern/inn_o99zc5mst...   \n5  https://www.shixiseng.com/intern/inn_l8qvwh45p...   \n6  https://www.shixiseng.com/intern/inn_32yffvxix...   \n7  https://www.shixiseng.com/intern/inn_3bbd8xnod...   \n8  https://www.shixiseng.com/intern/inn_eqgepvjbe...   \n9  https://www.shixiseng.com/intern/inn_6diu0tpnu...   \n\n                                                详细描述  位置  \n0  \\n工作职责\\n1，负责品牌海报设计\\n2，网站设计协助\\n3，包装及展示设计\\n任职要求\\...  上海  \n1  \\n\\n岗位职责：\\n\\n\\n1、 负责已签约学员日常电话咨询、沟通和回访，包括学员学习计划...  上海  \n2  \\n\\n【施华蔻市场部招聘实习生】\\n【工作职责】\\n1.   参与到新品上市过程中MKT ...  上海  \n3  \\n\\n【岗位职责】\\n\\n\\n按时完成上级指派的文字编辑工作\\n协调和配合内容工作的修改\\...  上海  \n4  \\n\\n【岗位职责】\\n\\n\\n负责公司媒体板块投放内容受众数据监测及跟进\\n根据数据提出内...  上海  \n5  \\n\\n【岗位职责】 1、协助项目工程部的日常工作，配合项目评估需要，完成相应的材料收集和整...  上海  \n6  \\n\\n【岗位职责】 1、协助渠道主管招聘本地大学城渠道实习生，制定招聘计划；\\n\\n\\n ...  上海  \n7  \\n\\n【岗位职责】 1、根据渠道主管下达的分解指标，铺排有效拜访方向促进房源成交；\\n\\n...  上海  \n8  \\n\\nRole and major Responsibilities – \\n\\n\\n· ...  上海  \n9  \\n\\nSuperFoot是一个新兴运动品牌，我们疯狂热爱、充分授权、通过优秀的激励制度让每...  上海  ",
      "text/html": "<div>\n<style scoped>\n    .dataframe tbody tr th:only-of-type {\n        vertical-align: middle;\n    }\n\n    .dataframe tbody tr th {\n        vertical-align: top;\n    }\n\n    .dataframe thead th {\n        text-align: right;\n    }\n</style>\n<table border=\"1\" class=\"dataframe\">\n  <thead>\n    <tr style=\"text-align: right;\">\n      <th></th>\n      <th>公司</th>\n      <th>公司标签</th>\n      <th>职位</th>\n      <th>职位标签</th>\n      <th>天/周</th>\n      <th>时长</th>\n      <th>学历</th>\n      <th>行业</th>\n      <th>最低工资</th>\n      <th>最高工资</th>\n      <th>链接</th>\n      <th>详细描述</th>\n      <th>位置</th>\n    </tr>\n  </thead>\n  <tbody>\n    <tr>\n      <th>0</th>\n      <td>鋆爵宠品设计工作室</td>\n      <td>快乐实习,不撕逼的团队,猫奴狗奴,带宠上班</td>\n      <td>平面设计实习生</td>\n      <td>None</td>\n      <td>5</td>\n      <td>4</td>\n      <td>不限</td>\n      <td>服装服饰/纺织/皮革</td>\n      <td>150</td>\n      <td>200</td>\n      <td>https://www.shixiseng.com/intern/inn_oyxskkkkl...</td>\n      <td>\\n工作职责\\n1，负责品牌海报设计\\n2，网站设计协助\\n3，包装及展示设计\\n任职要求\\...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>1</th>\n      <td>高顿教育</td>\n      <td>位置好,社保缴纳,活跃的工作环境,学到东西多,轻松和谐,学习成长空间,美女如云</td>\n      <td>学员服务实习生</td>\n      <td>免费住宿,可转正,13薪,能力培养,进修机会,各种激励奖金</td>\n      <td>5</td>\n      <td>11</td>\n      <td>本科</td>\n      <td>教育培训</td>\n      <td>150</td>\n      <td>200</td>\n      <td>https://www.shixiseng.com/intern/inn_olw7fgqqy...</td>\n      <td>\\n\\n岗位职责：\\n\\n\\n1、 负责已签约学员日常电话咨询、沟通和回访，包括学员学习计划...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>2</th>\n      <td>汉高</td>\n      <td>行业领导者,咖啡茶水自助,实践机会多</td>\n      <td>【施华蔻市场部招聘实习生】</td>\n      <td>实习证明</td>\n      <td>4</td>\n      <td>6</td>\n      <td>本科</td>\n      <td>快消/百货/批发/零售</td>\n      <td>120</td>\n      <td>150</td>\n      <td>https://www.shixiseng.com/intern/inn_ogguqshke...</td>\n      <td>\\n\\n【施华蔻市场部招聘实习生】\\n【工作职责】\\n1.   参与到新品上市过程中MKT ...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>3</th>\n      <td>科创彩</td>\n      <td>累积专业经验,员工活动丰富,奋斗沃土,热情,成长空间好,发展前景优</td>\n      <td>内容运营实习生</td>\n      <td>可转正实习,暑期实习,生日福利,留学生实习</td>\n      <td>4</td>\n      <td>2</td>\n      <td>本科</td>\n      <td>互联网/游戏/软件</td>\n      <td>100</td>\n      <td>150</td>\n      <td>https://www.shixiseng.com/intern/inn_4cruuuriv...</td>\n      <td>\\n\\n【岗位职责】\\n\\n\\n按时完成上级指派的文字编辑工作\\n协调和配合内容工作的修改\\...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>4</th>\n      <td>科创彩</td>\n      <td>累积专业经验,员工活动丰富,奋斗沃土,热情,成长空间好,发展前景优</td>\n      <td>运营策划实习生</td>\n      <td>暑期实习,留学生实习,实习津贴,餐补,绩效奖金,可转正实习</td>\n      <td>4</td>\n      <td>2</td>\n      <td>本科</td>\n      <td>互联网/游戏/软件</td>\n      <td>100</td>\n      <td>150</td>\n      <td>https://www.shixiseng.com/intern/inn_o99zc5mst...</td>\n      <td>\\n\\n【岗位职责】\\n\\n\\n负责公司媒体板块投放内容受众数据监测及跟进\\n根据数据提出内...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>5</th>\n      <td>中海地产</td>\n      <td>行业大佬,黄埔军校,办公环境舒适</td>\n      <td>工程助理实习生</td>\n      <td>免费三餐,实习证明,提供住宿</td>\n      <td>5</td>\n      <td>6</td>\n      <td>本科</td>\n      <td>房产/家居/物业/建筑</td>\n      <td>120</td>\n      <td>120</td>\n      <td>https://www.shixiseng.com/intern/inn_l8qvwh45p...</td>\n      <td>\\n\\n【岗位职责】 1、协助项目工程部的日常工作，配合项目评估需要，完成相应的材料收集和整...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>6</th>\n      <td>中海地产</td>\n      <td>行业大佬,黄埔军校,办公环境舒适</td>\n      <td>人力资源营销HRBP实习生</td>\n      <td>实习津贴,定期团建,生日会,央企,提供住宿</td>\n      <td>5</td>\n      <td>3</td>\n      <td>本科</td>\n      <td>房产/家居/物业/建筑</td>\n      <td>120</td>\n      <td>120</td>\n      <td>https://www.shixiseng.com/intern/inn_32yffvxix...</td>\n      <td>\\n\\n【岗位职责】 1、协助渠道主管招聘本地大学城渠道实习生，制定招聘计划；\\n\\n\\n ...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>7</th>\n      <td>中海地产</td>\n      <td>行业大佬,黄埔军校,办公环境舒适</td>\n      <td>渠道公关专员</td>\n      <td>年轻化,开发商,央企,学得多,年轻态</td>\n      <td>3</td>\n      <td>3</td>\n      <td>本科</td>\n      <td>房产/家居/物业/建筑</td>\n      <td>120</td>\n      <td>150</td>\n      <td>https://www.shixiseng.com/intern/inn_3bbd8xnod...</td>\n      <td>\\n\\n【岗位职责】 1、根据渠道主管下达的分解指标，铺排有效拜访方向促进房源成交；\\n\\n...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>8</th>\n      <td>We Education</td>\n      <td>视野宽广,地铁旁,免费零食茶饮,年度体检,节日津贴,发展空间大,出国机会</td>\n      <td>业务部出单实习生</td>\n      <td>暑期实习,留学生实习</td>\n      <td>5</td>\n      <td>2</td>\n      <td>本科</td>\n      <td>教育/培训</td>\n      <td>120</td>\n      <td>120</td>\n      <td>https://www.shixiseng.com/intern/inn_eqgepvjbe...</td>\n      <td>\\n\\nRole and major Responsibilities – \\n\\n\\n· ...</td>\n      <td>上海</td>\n    </tr>\n    <tr>\n      <th>9</th>\n      <td>SuperFoot定制鞋垫</td>\n      <td>None</td>\n      <td>销售经理</td>\n      <td>弹性工作,可转正实习,可转正,朝九晚五,绩效奖金,高提成</td>\n      <td>5</td>\n      <td>3</td>\n      <td>大专</td>\n      <td>快消/百货/批发/零售</td>\n      <td>250</td>\n      <td>300</td>\n      <td>https://www.shixiseng.com/intern/inn_6diu0tpnu...</td>\n      <td>\\n\\nSuperFoot是一个新兴运动品牌，我们疯狂热爱、充分授权、通过优秀的激励制度让每...</td>\n      <td>上海</td>\n    </tr>\n  </tbody>\n</table>\n</div>"
     },
     "metadata": {},
     "execution_count": 26
    }
   ],
   "source": [
    "shixi.head(10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "行业里的特殊字符'/'不用去除，因为行业都是一个整体，固定的几种\n",
    "\n",
    "详情描述里有许多换行符\n",
    "\n",
    "其实"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ]
}